預測運動勝負大法，利用資料累積搭配機器學習探索《財富密碼》

#機器學習大數據分析

guess365 2022-05-20 11:32:08 ‧ 2155 瀏覽

分享至

您是否有做過投資運彩的發財夢呢，或幻想過周公託夢給您一封如何靠投資運彩賺大錢的《財富密碼》!?

但是…幻想發財夢這些行為是不切實際的，不過今天我們Guess365數據工程師分享一篇卻能離發大財近一點的預測方法。

今天來分享一篇研究，由Shu-Fen Li所撰寫的《Exploring and Selecting Features to Predict the Next Outcomes of MLB Games》，是一篇利用資料累積方法搭配機器學習去預測MLB明日比賽結果，根據實驗結果呈現該方法有高達65~70%的準確率，若專注於某隊伍真的能夠賺大錢。
本篇文章源自：Guess365平台

實驗流程

如圖一所示為作者建構模型的工作流程，實驗所蒐集的MLB比賽數據皆來自Baseball-reference.com網站，該網站提供各種棒球比賽進階數據。

作者選擇使用的預測方法很特別，他依據每一支隊伍把比賽拆分成不同資料集，並為此訓練一個專屬他們的預測模型。

工作流程
選擇的特徵皆是一些基本數據，像是打擊群的安打數(H)、全壘打數(HR)、打點(RBI)、上壘率(OBP)…、投手群的的三振數(SO)、四壞球數(BB)、防禦率(ERA)、每局被上壘率(WHIP)，與球隊當季勝率(WIN%)。

特徵選擇
資料前處理如標題提到的方法，他們參考其他做的作法選擇使用資料累積法，將每個特徵依據比賽場次一直累加直到賽季結束。如圖三是太空人隊的數據，從2015年第1場到累加到第162場，隔年2016年則從頭開始累加。

資料累積數據

工作流程也提到他們有使用特徵篩選，來評估選前、選後的效果，遞迴特徵消除(Recursive feature elimination, RFE)是在包裝法(Wrapper)常見篩選方法，主要原理是通過建構基本模型，並給定特徵集合N、想要的特徵數量X後，RFE會根據演算法取出coef_及feature_importances_，來刪除不重要的特徵，而剩餘的特徵則會進行下一輪訓練，並重複上述動作直到達到想要的特徵數量。

特徵篩選